提高網站在Google中的排名 ——面向搜索引擎的網站設計

穩萊
提高網站在Google中的排名 ——面向搜索引擎的網站設計
2004年 12月06日
 
關鍵詞:Google PageRank "link popularity" "website promotion" "optimization for search engine" 

版權聲明:可以任意轉載,轉載時請務必以超鏈接形式標明文章原始出處和作者信息及本聲明
http://www.chedong.com/tech/google.html

關鍵詞:Google PageRank "link popularity" "website promotion" "optimization for search engine" 

內容摘要:
目前中文網站在整個互聯網中的影響還比較小,這主要是由於中文網站總體的水平(技術上,內容上)都還相對落後造成的,最主要的表現有:

  1. 行業知識:不知道搜索引擎對吸引的新用戶的重要性,在搜索引擎排名服務中追求"傻瓜相關",購買一些其實沒有太多實際意義的行業關鍵詞。其實能夠用戶輸入的關鍵詞越多,真對性越強,價值越高。用戶能夠直接定位到產品具體內容頁比到網站首頁有價值的多;
  2. 發佈技術:網站的網頁進入Google的索引量非常小,動態網頁仍是主要發佈機制,缺乏將動態頁面鏈接表現成靜態頁面的機制
  3. 頁面設計:頁面標題重複,關鍵詞不突出,過渡使用JavaScript腳本/圖片/Flash等不適合搜索引擎索引的非文本形式;
無法量化的東西是不可管理的,以上根本的原因往往是網站自身缺乏日誌統計分析造成:

其實大部分網站只要通過一些簡單的策略還是可以讓網站自身的水平在互聯網中有一個真實的體現,網站結構設計中面向搜索引擎的優化注意事項包括:

(注意:本網站設計本身就利用了其中一些方法)。

什麼是PageRank

Google等新一帶搜索引擎的優勢之一在於不僅索引量很大,而且還將最好的結果排在搜索結果的最前面,具體的原理可以參考Google 秘密 - PageRank 徹底解說一文,PageRank簡單的說類似於科技論文中的引用機制:誰的論文被引用次數多,誰就是權威。在互聯網上PageRank就是基於網頁中相互鏈接關係的分析得出的。

此外,從計算方法角度闡述PageRank機制還有這篇文章:http://pr.efactory.de/裡面有更詳細的PageRank算法說明和各種清晰的小型個案分析:

比如:子頁中導航條的重要性
B <=> A => C  
Vs  
B <=> A <=> C   (好)

頁面數量因素:
B <=> A <=> C
Vs
F <=\   /=> G
B <=> A <=> C   (好)
D <=/   \=> E

一個意想不到的結論:
(B <=> A <=> C)      ( E <=> D <=> F)
Vs
(B <=> A <=> C)  <=> ( E <=> D <=> F)
PageRank升高的只是被鏈接的2個首頁A和D,而網站子頁面的PageRank平均會略有下降。同時:一個網站進入Google的索引量越大其受類似因素影響越小。
PageRank不對稱的頁面互鏈:
Google會用BadRank之類的算法進行糾正,而且一個網頁著有來自"與其自身不相稱"的高PageRank站點的鏈接,而自身又缺少足夠數量和質量的反相鏈接的話,其PageRank會自動降低為0,A(pr=7) <=> B(pr=0)
簡單的說就是:偶爾要被權威站點反相鏈接不算數,要被足夠多的權威站點引用才能提高自身網頁的PageRank。
Web超鏈分析算法綜述(南京大學論文) 更多論文可以通過搜索:"filetype:pdf google pagerank anchor text bayesian"得到

反相鏈接的重要性

在互聯網的海洋中,最重要的就是互聯互通,不被其他網站引用的網站就是"信息孤島"。"酒好也怕巷子深",也許這話說起來有點像垃圾郵件廣告,但事實就是這樣。所以如果做網站的目的不是孤芳自賞,就需要積極的推廣自己的網站。
通過搜索引擎推廣自己需要注意以下幾個方面:

  1. 以量取勝:不一定加入大型網站的分類目錄才是網站推廣,來自其他網站的任何反相鏈接都是有用的
    網站推廣比較經典的方式就是加入比較大型門戶網站的分類目錄,比如:
    Yahoo!dmoz.org等。其實這裡有一個誤區:不一定非要加入大型網站的分類目錄才是網站推廣,因為現在搜索引擎已經不再只是網站目錄的索引,而是更全面的網頁索引,所以無論來自其他網站任何地方的反相鏈接都是非常有價值的,哪怕是出現在新聞報道,論壇,郵件列表歸檔中。Blogger(Weblog的簡稱)們也許最深刻地理解了"鏈接就是一切"這句話的含義,由於Blog的內容之間有大量的相互鏈接,因此最經常被引用的 Blog頁面在搜索引擎中的排名往往比一些大型商業網站的頁面還要高。而wiki這樣的文檔管理系統更加突出了良好引用的特徵。
  2. 以質取勝:被PageRank高的網站引用能更快地提高PageRank
    數量只是關鍵因素之一,來自PageRank高的頁面的鏈接還能更快的提高被鏈接目標的PageRank,我只是將一些文章投稿在了ZDNet中國上,由於頁面上有文章出處鏈接,相應網頁和網站整體的PageRank過了一段時間後就有了很大的提升。有時候被什麼樣的網站引用有時候比引用次數多更重要。這裡我要特別感謝的是,當時ZDNet中國是唯一遵循了我的版權聲明的要求表明了文章出處,並且有反相鏈接的網站。
    按照這個原則:能夠名列Yahoo!和DMOZ這樣的大型權威目錄的頭2層是非常有價值的。
  3. 瞭解搜索引擎的"價值觀":
    Lucene簡介這篇文章被Jakarta.apache.org的lucene項目引用以後,這篇文章就成為了所有頁面中PageRank最高的頁面,而Google支持的一些項目,比如:Folding@Home,讓我一直懷疑他們對政府,教育和非盈利組織的站點有特別加分,畢竟.org .edu才代表了互聯網的實質:分權和共享。
    但更合理的解釋是:.org很多都是開放技術平台的開發者,他們會在首頁這樣的地方加入Powered By Apache, Power by FreeBSD之類的鏈接表示對其他開源平台的尊重,所以象Apache, PHP, FreeBSD這樣的開源站點在GOOGLE中都有非常高的PageRank。而在.edu這些站點中,很多都是學術性比較強的文檔,以超鏈接形式標明參考文獻的出處已經成為一種習慣,而這也無疑正是PageRank最好的依據。
    注意:不要通過Link Farm提高自身的站點排名:Google會懲罰那些主動鏈接到Link Farm站點以提高自身排名站點,相應站點的頁面將不會被收入到索引中。但如果你的頁面被別的Link Farm鏈接了也不必擔心,因為這種被動的鏈接是不會被懲罰的。
  4. 不要吝嗇給其他網站的鏈接:如果一個網頁只有大量的進入鏈接,而缺乏導出鏈接,也會被搜索引擎認為是沒有價值的站點。保證你的網站能夠幫助搜索引擎更準確地判斷哪些是對用戶最有價值的信息,也就是說如果你的網站只有外部反向鏈接而沒有導出鏈接的話,也會對你的網站在搜索結果中的表現帶來負面影響。當然網站中連一個導出鏈接都沒有的情況非常罕見,除非你是刻意這麼做。正常情況下大家都會自然地在網頁中加上一些其他網站的鏈接,帶領訪問者去到我們認為重要或能夠提供更多有價值信息的地方,

另外在推廣自己網站之前也許首先需要瞭解自己網站目前在一些搜索引擎中的知名度,原理非常簡單,可以參考如何評價網站的人氣一文。

網站推廣只是手段,如何突出內容、讓需要相關信息的用戶能夠盡快的找到你的網站才是目的,PageRank高並不代表像Yahoo!這樣的門戶站點就能在所有搜索結果中排名靠前,因為搜索引擎的結果是搜索關鍵詞在頁面中的匹配度和頁面的PageRank相結合的排名結果。因此第二個要點:如何突出關鍵詞。

如何突出關鍵詞:面向主題(Theme)的關鍵詞匹配

  1.  Theme Engine正在逐步超過PR,成為結果排序中更主要的因素,可以比較一下以下現象:
    • 為什麼查"新聞","汽車"之類的文字,各種門戶網站的首頁不在第一位?要知道他們的頁面中都有相應頻道的鏈接文字的
    • 一篇新聞頁面中,搜索引擎如何不通過模板匹配,自動將新聞的主體和頁面中的頁頭,欄目導航條,頁尾等部分的內容區分開的?
    其實以上問題都可以歸結為網頁內容摘要的提取策略和關鍵詞在其中的命中:
    首先將能夠描述一個頁面內容的分成以下幾種類型:
    1. 鏈入文字描述:inbound link text
      http://www.searchenginedictionary.com/terms-inbound-link.shtml
    2. HTML頁面標題:title 好標題一般會將頁面中最重要的關鍵詞放在最前面,比如:ABC-10型吸塵器 - XX家電城
    3. HTML內容主體:content text
    4. 鏈出文字:outbound link text
    如果按照以下規則:
    一個頁面中關鍵詞命中權重:鏈入文字 > HTML標題文字 > HTML頁面主體內容 >> 出鏈文字,以上現象就比較好解釋了。
    鏈入文字是頁面上看不見的,但鏈入文字對被鏈接頁面有巨大的作用:在現代搜索引擎在關鍵詞匹配的過程中,匹配的過程不只看當前頁面的內容摘要:很大程度上,不只看這個網頁自己說自己有什麼內容,還要看別人如何鏈接時,如何描述你的網站別人怎麼稱呼你,比你自己說自己更重要。。
    比如查:"世界衛生組織",返回結果中有 http://www.who.int/ 而這個頁面中是沒有中文的,之所以能匹配上,是因為很多鏈接它的中文網站使用了:<a href="http://www.who.int/">世界衛生組織</a>,所以,這個頁面中不存在的中文關鍵詞也成為了頁面摘要的一部分。這樣一想,就可以知道鏈出鏈接的文字其實是為被鏈接的子頻道首頁或者內容詳情頁服務的。對自身頁面的關鍵詞密度只有負面的影響,這也是Google建議一個頁面中鏈接不要超過100個的原因:他根本不索引100個鏈接以後的內容。按照以上規則,搜索引擎將一篇新聞詳情頁中的新聞內容提取出來就是把頁面上所有帶HTTP鏈接的文字都去掉,就是新聞的內容部分了,更精確一些可以通過取最長文本段落等策略實現;而很多網站首頁或頻道首頁中幾乎全部都是鏈接,經過搜索引擎分析的結果就是:什麼內容也沒有,能夠被命中的關鍵詞僅僅是別人鏈接你用的"網站首頁"和頻道標題Title中的站點名稱等的幾個關鍵詞,而頁面中其他的文字則遠遠不如相應子頻道和具體內容頁面的匹配度高,而搜索引擎能夠通過以上規則,讓用戶更快的直接定位到有具體內容的內容詳情頁面。因此希望通過一個首頁,盡可能多的命中所有希望推廣的關鍵詞是不可能的。讓網頁盡可能多的進入搜索引擎的索引,然後把握好整個網站的主題風格是非常重要的,讓網站的主題關鍵詞能夠比較均勻的按照金字塔模式分佈到網站中可以參考:網站的主題金字塔設計          網站名稱(用戶通過1-2個抽像關鍵詞)
             /       \
        子頻道1   子頻道2 (用戶通過2-3個關鍵詞命中)
       /    \      /    \
    產品1  產品2 文章1 文章2 (用戶通過3-4個關鍵詞命中:這種用戶最有價值)

  2. 不要空著標題:空著<title></title>無異於浪費了最有價值的一塊陣地;
    傳統的頁面中,HTML頁面中會有類似以下的隱含信息,用於說明當前網頁的主要內容關鍵字:
    <header>
        <meta name="keyword" content="mp3 download music...">
    </header>
    後來由於這種人工添加關鍵詞的方式被濫用,大量網頁中為了提高被搜索引擎命中的概率,經常添加一些和實際網頁內容無關的熱門關鍵比如:"music mp3 download"等,所以新一代的搜索引擎已經不再關心頁面頭文件中的人工meta keyword聲明,而頁面標題在搜索引擎的關鍵詞的命中命中過程中往往有著更高的比重,如果一個關鍵詞在標題中命中會比在頁面中命中有更高的得分,從而在相應的搜索結果排名中更靠前。
  3. 標題長度和內容:不要過長,一般在40個字符以內,並充分突出關鍵詞的比重;
    如果更長的標題搜索引擎一般會忽略掉,所以要盡可能將主要關鍵詞放在標題靠前的位置。省略掉不必要的形容詞吧,畢竟用戶主要通過名詞來找到需要的內容。標題內容:盡量用一些別人可以通過關鍵詞找到的字眼(也別太過頭,如果標題中的字眼超過1半內容中都沒有,有可能被搜索引擎排除出索引),因此基於web日誌中來自其他搜索引擎的關鍵詞查詢統計非常必要。
  4. 如果網頁很多的話,盡量使用不同的網頁標題,爭取讓自己網站的內容更多的進入搜索引擎索引範圍;
    因為搜索引擎會根據頁面內容的相似度把一些內容當成重複頁面排除出索引範圍;
    http://www.chedong.com/phpMan.php是我的網站上的一個小應用:一個web界面的unix命令手冊(man page),在以前的設計中所有動態頁面使用的都是同樣的標題:"phpMan: man page /perldoc /info page web interface" ,Google索引了大約3000多個頁面,後來我將頁面標題改成了"phpMan:  [命令名]"這樣的格式,比如:"phpMan: ls",這樣大部分動態頁面的標題就都不一樣了,一個月後Google從這個頁面入口索引了大約6000個頁面。因此,如果網站中很多網頁都使用相同的標題,比如:"新聞頻道","論壇",這些頁面中很大一部分就會被排重機制忽略掉。
  5. 除了<title></title>外,還可以用<h1></h1>標題行突出內容主題,加強標題的效果;
    在我的網站設計中:我會把用<h1>[標題]</h1>這樣的模板把標題突出顯示,而不是通過改變字體的方式突出標題。

其他網站設計提示

  1. 靜態鏈接:Blog網站另外一個優勢在於其網頁是靜態鏈接:動態網頁佔到整個互聯網內容的90%以上。各個搜索引擎其實能夠表現的都只不過是互聯網的冰山一角(3-5%),不同的只是誰讓優質網頁排名靠前的策略更優秀而已:大部分搜索引擎都認為靜態鏈接的網頁是優質網頁,Google在優先抓取索引的網頁中70%以上是不帶參數鏈接的靜態網頁。而且即使同樣的內容,靜態網頁也會比動態網頁權重高:很容易理解:query?a=1&b=2這樣的鏈接由於參數順序顛倒的query?b=2&a=1完全相同。盡量使用靜態網頁:目前能夠動態網頁進行全面的索引還比較難,而即使是Google也更不會索引所有的內容,因此很少會對參數超過2個的動態網頁進行進一步的抓取和分析。以下是一個phpBB論壇頁面返回的HTTP頭信息:
    HTTP/1.1 200 OK
    Date: Wed, 28 Jan 2004 12:58:54 GMT
    Server: Apache/1.3.29 (Unix) mod_gzip/1.3.26.1a PHP/4.3.4
    X-Powered-By: PHP/4.3.4
    Set-Cookie: phpBB_data=a%3A0%3A%7B%7D; expires=Thu, 27-Jan-2005 12:58:54 GMT; path=/; 
    Set-Cookie: phpBB_sid=09f67a83ee108ecbf11e35bb6f36fcec; path=/;
    Content-Encoding: gzip
    Cache-Control: private, pre-check=0, post-check=0, max-age=0
    Expires: 0
    Pragma: no-cache
    Connection: close
    Content-Type: text/html
    
    為了避免隱私問題:Googlebot可以通過對頁面http header中的session id和session cookie進行一些甄別,這樣很多需要認證信息的論壇內容就無法進入索引了。
    總體上說Google喜歡新的,靜態的內容。因此無論從效率上講還是方便搜索引擎收錄:使用內容發佈系統將網站內容發佈成靜態網頁都是非常必要的,從某種程度上說google friendly = anonymous cache friendly。
    比如:http://www.chedong.com/phpMan.php/man/intro/3
    比http://www.chedong.com/phpMan.php?mode=man&parameter=intro&section=3這樣的鏈接更容易進入搜索引擎的索引。而且在URL中的命中也能突出關鍵詞。
  2. 能夠進入Google索引的頁面數量越多越好。用類似以下的腳本可以統計自己的網站被搜索引擎索引的情況。
    #!/bin/sh
    YESTERDAY=`date -d yesterday +%Y%m%d`
    # for FreeBSD: YESTERDAY=`date -v-1d +%Y%m%d`
    
    LOG_FILE='/home/apache/logs/access_log'
    
    grep -i Googlebot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.googlebot.txt
    grep -i baiduspider $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.baiduspider.txt
    grep -i msnbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.msnbot.txt
    grep -i inktomi $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.inktomi.txt
    grep -i openbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort |uniq -c | sort -rn > spider/$YESTERDAY.openbot.txt
        
  3. 網站目錄結構要扁平,因為每深一級目錄,PAGERANK降低1-2個檔次。假設首頁是3,其子可能目錄就是1了,更深可能就無法列入評級範圍了。
  4. 表現和內容的分離:"綠色"網頁
    網頁中的javascript和css盡可能和網頁分離,一方面提高代碼重用度(也方便頁面緩存),另外一方面,由於有效內容占網頁長度的百分比高,也能提高相關關鍵詞在頁面中的比重也增加了。總之,應該鼓勵遵循w3c的規範,使用更規範的XHTML和XML作為顯示格式便於內容更長時間的保存。
  5. 讓所有的頁面都有能夠快速入口:站點地圖,方便網頁爬蟲(spider)快速遍歷網站所有需要發佈的內容。如果首頁就是用Flash或圖片進入的話,無異於將搜索引擎拒之門外,除了UI設計的用戶友好外,spider friendly也是非常重要的。
  6. 保持網站自身的健康:經常利用壞鏈檢查工具檢查網站中是否有死鏈。
  7. 保持網頁內容/鏈接的穩定性和持久性:在搜索引擎索引中網頁存在的歷史也是一個比較重要的因素,而且歷史比較久的網頁被鏈接的幾率越高。為了保證自己網頁能夠被比較持久的被其他網站的頁面引用,如果自己網頁中有鏈接更新時,最好能保留舊的頁面並做好鏈接轉向,以保持內容的連續性。要知道,把一個網站和內容在搜索引擎中的排名"培養"的很高是一件非常不容易的事情,誰都不希望好不容易自己的內容被別人找到了,點擊卻是"404 頁面不存在"吧,因此站點管理員對自身站點error.log的分析也是非常必要的。
  8. 文件類型因素:Google有對PDF, Word(Power Point, Excel), PS文檔的索引能力,由於這種文檔的內容比一般的HTML經過了更多的整理,學術價值一般比較高,所以這些類型的文檔天生就比一般的HTML類型的文檔 PageRank要高。因此,對於比較重要的文檔:技術白皮書,FAQ,安裝文檔等建議使用PDF PS等高級格式存取,這樣在搜索結果中也能獲得比較靠前的位置。
  9. 常常能發現門戶站點的一條新聞往往比其他站點的首頁排名還要靠前。因此一個站點總體PageRank提高了以後,往往自身一些並不重要的內容也會被同那些高PageRank的內容一起帶入被搜索引擎優先查詢的列表中。這樣經常造成很多大的開發站點的郵件列表歸檔往往比其他站點的首頁PageRank還要高。

知己知彼——站點訪問統計/日誌分析挖掘的重要性

網站設計不僅僅只是被動的迎合搜索引擎的索引,更重要是充分利用搜索引擎帶來的流量進行更深層次的用戶行為分析。目前,來自搜索引擎關鍵詞統計幾乎是各種WEB日誌分析工具的標準功能,相信商業日誌統計工具在這方面應該會有更強化的實現。WEB日誌統計這個功能如此重要,以至於新的RedHat 8中已經將日誌分析工具webalizer作為標準的服務器配置應用之一。

以Apache/webalizer為例,具體的做法如下:
  1. 記錄訪問來源:
    在Apache配置文件中設置日誌格式為combined格式,這樣的日誌中會包含擴展信息:其中有一個字段就是相應訪問的轉向來源: HTTP_REFERER,如果用戶是從某個搜索引擎的搜索結果中找到了你的網頁並點擊過來,日誌中記錄的HTTP_REFERER就是用戶在搜索引擎結果頁面的URL,這個URL中包含了用戶查詢的關鍵詞。
  2. 在webalizer中缺省配置針對搜索引擎的統計:如何提取HTTP_REFERER中的關鍵詞
    webalizer中缺省有針對yahoo, google等國際流行搜索引擎的查詢格式:這裡我增加了針對國內門戶站點的搜索引擎參數設置
    SearchEngine yahoo.com p=
    SearchEngine altavista.com q=
    SearchEngine google.com q=
    SearchEngine    sina.com.cn word=
    SearchEngine    baidu.com   word=
    SearchEngine    sohu.com    word=
    SearchEngine    163.com q=

通過這樣設置webalizer統計時就會將HTTP_REFERER中來自搜索引擎的URL中的keyword提取出來,比如:所有來自 google.com鏈接中,參數q的值都將被作為關鍵詞統計下來:,從匯總統計結果中,就可以發現用戶是根據什麼關鍵詞找到你的次數,以及找到你的用戶最感興趣的是那些關鍵詞等,進一步的,在webalizer中有設置還可以將統計結果倒出成CSV格式的日誌,便於以後導入數據庫進行歷史統計,做更深層次的數據挖掘等。

以前通過WEB日誌的用戶分析主要是簡單的基於日誌中的訪問時間/IP地址來源等,很明顯,基於搜索引擎關鍵詞的統計能得到的分析結果更豐富、更直觀。因此,搜索引擎服務的潛在商業價值幾乎是不言而喻的,也許這也是Yahoo! Altavista等傳統搜索引擎網站在門戶模式後重新開始重視搜索引擎市場的原因,看看Google的年度關鍵詞統計就知道了,在互聯網上有誰比搜索引擎更瞭解用戶對什麼更感興趣呢?

請看本站的反相鏈接統計:http://www.chedong.com/log/2003_6.log
需要注意的是:由於Google針對Windows 2000中的IE使用的是UTF-8方式的編碼,因此很多統計有時候需要在UTF-8方式下查看才是正確字符顯示。從統計中能夠感受到:在使用水平比較高的IT開發人員中Google已經成為最常用的搜索引擎。而使用百度的用戶也已經大大超過了傳統的搜狐,新浪等門戶站點,因此傳統門戶網站在搜索引擎上的優勢將是非常脆弱的。而從技術的發展趨勢來看,以後還會有更多的利用互聯網媒體做更深層次數據挖掘的服務模式出現:

 

轉載自cnblog.org——"突發"文字可能揭示社會趨勢

在"新科學家"(New Scientist)在線雜誌上,公佈了康奈爾大學的一個新研究成果,引人注目,也許與Google 收購Pyra 的動機有關。

這所大學的計算機科學家 Jon Klenberg 開發了一個計算機算法,能夠識別一篇文章中某些文字的"突發"增長,而且他發現,這些"突發"增長的文字可以用來快速識別最新的趨勢和熱點問題,因此能夠更有效地篩選重要信息。過去很多搜索技術都採用了簡單計算文字/詞組出現頻率的方法,卻忽略了文字使用增加的速率。

Jon 特別指出,這種方法可以應用到大量Weblog上,以跟蹤社會趨勢,這對商業應用也很有潛力。例如,廣告商可以從成千上萬的個人Blog 中快速找到潛在的需求風尚。而且只要Blog 覆蓋話題範圍足夠大(實際上發展趨勢確實如此),這項技術對政治、社會、文化和經濟等領域也都會有實際意義了。

雖然Google 新聞的內部算法至今沒有公開,但是人們猜測這種完全由機器所搜集的頭條新聞應當不是Google搜索引擎中慣用的鴿子算法,很可能與這種"突發"判斷算法有關。如此說來,Google收購Blog工具供應商的舉動確實還有更深層次的遠見了

- NewScientist.com news, Word 'bursts' may reveal online trends
- 還沒有寫完這些介紹,在 SlashDot 上也看到了很多有關這個發現的討論

附:Google官方的站點設計指南

    Google官方的站點設計指南
  • Make a site with a clear hierarchy and text links. Every page should be reachable from at least one static text link.  讓網站有著清晰的結構和文本鏈接,所有的頁面至少要有一個靜態文本鏈接入口
    批註:盡量不要用圖片和JAVASCRIPT
  • Offer a site map to your users with links that point to the important parts of your site. If the site map is larger than 100 or so links, you may want to break the site map into separate pages.
    為用戶提供一個站點地圖:轉向網站的重要部分。如果站點地圖頁面超過100個鏈接,則需要將頁面分成多個頁面。
    批註:索引頁不要超過100個鏈接:SPIDER只考慮頁面中頭100個鏈接
  • Create a useful, information-rich site and write pages that clearly and accurately describe your content.
    用一些有用的,信息量豐富的站點,清晰並正確的描述你的信息。
  • Think about the words users would type to find your pages, and make sure that your site actually includes those words within it.
    想像用戶可能用來找到你的關鍵詞,並保證這些關鍵詞在網站中出現。
    批註:少用"最大","最好"之類的形容詞,用用戶最關心的詞,比如:下載,歌星名字,而不是一些抽像名詞。
  • Try to use text instead of images to display important names, content, or links. The Google crawler doesn't recognize text contained in images.
    盡可能使用文本,而不是圖片顯示重要的名稱,內容和鏈接。GOOGLE的機器人不認識圖片中的文字。
  • Make sure that your TITLE and ALT tags are descriptive and accurate.
    保證:頁面的TITLE和ALT標記正確的精確描述
  • Check for broken links and correct HTML.
    檢查壞鏈並修正這些HTML錯誤。
  • If you decide to use dynamic pages (i.e., the URL contains a '?' character), be aware that not every search engine spider crawls dynamic pages as well as static pages. It helps to keep the parameters short and the number of them small.
    如果你打算使用動態頁面:鏈接中包含"?",必須瞭解:並非所有的搜索引擎的機器人能想對待靜態頁面一樣對待動態頁面,保持動態頁面的參數盡可能的少也會很有幫助。
  • Keep the links on a given page to a reasonable number (fewer than 100).
    讓一個頁面中的鏈接少於100個。
    批註:用lynx -dump http://www.chedong.com 可以模擬從robot角度看到的頁面。其最後有鏈接統計

輸出類似:

   [1]Google Free Search _______________________________ Google Search
   (_) Search WWW (_) Search chedong.com

   更 新 [2]站點地圖 / Site Map [3]留 言簿 / Guest Book [4]意見反饋 /
   Feed Back
    ...
References

   Visible links
   1. http://www.google.com/services/free.html
   2. http://www.chedong.com/sitemap.html#sitemap
   3. http://www.chedong.com/guestbook/
   4. http://www.chedong.com/formmail.htm
    ...
   Hidden links:
  50. http://www.chedong.com/bbcweb/
    ...

搜索引擎的宗旨在於提取互聯網中質量最好的內容提供給用戶,任何有利於幫助用戶獲得相對公正,優質內容的策略都是搜索引擎追求目標。PageRank是一個非常好的策略,但是並非所有策略都是基於非常複雜的算法。
從搜索引擎看來什麼是互聯網中"好"的內容呢?

  • 首先:互聯網大約是8G個網頁,而且以每天2M的速度增長的。其中80%以上是動態網頁,而占總量20%的靜態網頁就是一個相對比較簡單的過濾規則。
  • 其次:用戶友好(User friendly)也是很重要的方面,搜索引擎利用算法幫助提升這些優質網站,包括:通過CSS將內容和表現分離:較少的javascript和frame結構,spider本身也很難深入抓取這些網頁:Javascript和frame結構大部分是廣告。
  • 標題明確:無標題,重複標題或者標題SPAM(類似於:遊戲遊戲遊戲遊戲遊戲遊戲這樣的標題)進行過濾或降低得分頁面大小:因為頁面過大會導致用戶下載緩慢,所以很多引擎只計算頁面大小在100k以內的網頁。
  • 鏈接引用:不僅需要有鏈接鏈入,也需要幫助用戶找到其他更有價值的內容;
  • 文件類型:PDF和DOC等專業文檔和來自edu,gov等非贏利網站的內容;
  • 鏈入網站的文字:所有用戶不可見的因素全部被忽略。此外:用戶搜索的行為本身也被Google記錄,可能對目標網站的主題相關度有幫助。

 

參考資料:

面向Google搜索引擎的網站設計優化
http://www.google-search-engine-optimization.com/


關於Google排名優化的7個誤區,如:"Meta tag", "泛域名",首頁等

如何評價一個網站的人氣
http://www.chedong.com/tech/link_pop_check.html

如何提高網站在Google中的排名——面向搜索引擎的廣告模式
http://www.chedong.com/tech/google_ads.html

如何提高網站在Google中的排名——面向搜索引擎的網站鏈接設計
http://www.chedong.com/tech/google_url.html

Google不斷改進相應的算法:HillTop
Hilltop: A Search Engine based on Expert Documents

Google 秘密 - PageRank 徹底解說
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
這篇文章是在查"Google PageRank"的時候查到的,這篇文章不僅有一個算法說明,也是一個Google的weblog,記錄了很多關於Google的新聞和一些市場動態信息。
Google 的秘密- PageRank 徹底解說 中文版

更詳細的PageRank算法說明:
http://pr.efactory.de/

WEB日誌統計工具AWStats的使用:增加了Unicode的解碼和中國主要門戶搜索的定義
http://www.chedong.com/tech/awstats.html

Robots的說明:
http://bar.baidu.com/robots/
http://www.google.com/bot.html
搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。您可以在您的網站中創建一個純文本文件 robots.txt,在這個文件中聲明該網站中哪些內容可以被robot訪問,哪些不可以。

反Google站點:觀點也很有趣
http://www.google-watch.org/

關於Google的WebLog
http://google.blogspace.com/

關於Google的HillTop算法

搜索引擎相關論壇
http://searchengineforums.com/
http://searchenginewatch.com
http://www.webmasterworld.com/

 給當前日誌評分:
Loading Vote
正在讀取評分資料...


文章來自: Tank部落格
引用通告: 查看所有引用 | 我要引用此文章
Tags:
相關日誌:

評論: 0 | 引用: 0 | 查看次數: -
發表評論
暱 稱:
密 碼: 遊客發言不需要密碼.
內 容:
驗證碼: 驗證碼
選 項:
雖然發表評論不用註冊,但是為了保護您的發言權,建議您註冊帳號.